豆包

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它全部不及格

近日，淘宝天猫集团的研究者们提出了中文简短问答（Chinese SimpleQA），这是首个全面的中文基准，具有“中文、多样性、高质量、静态、易于评估”五个特性，用于评估语言模型回答简短问题的真实性能力。

中文豆包 openaio1 2024-11-21 14:08 20